iT邦幫忙

2023 iThome 鐵人賽

DAY 5
0
AI & Data

吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)系列 第 5

Data Warehouse 資料倉儲 (營運上各種光怪陸離的現象)

  • 分享至 

  • xImage
  •  

Data Warehouse(以下簡稱 DWH)這一塊目前仍然是百家爭鳴的狀態,應用架構與功能實際上沒有一個共通的業界標準。前一篇談到 DWH 時,歸類為儲存結構化資料,但是多研究一些,你就會發現仍有人認為 DWH 應該儲存非結構資料。此外,有些人甚至認為 DWH 只是一個抽象概念,並非必為一個獨立資訊系統,可能由多個 Databases、雲端與地端 Databases 所組成,甚至包含獨立 Storage。

我個人認同之 DWH 範疇:

  1. 可由多個 Databases 所組成,不限雲端與地端 Databases。
  2. 不能包含獨立 Storage,以儲存與提供結構化資料為限,否則就會跟 Data Lake 開始混淆。

因為相關知識體系仍在發展中,知識部分大家可以參考 Wiki 或是本文的來源資料,本文分享我的一些觀察。
相關詞彙說明請見最後一小節。

短命的 Data Mart

多年來推廣 Hadoop, 經常都是被當作 DWH 的 Offload 方案,因而看過許多 DWH。我發現 DWH 建置之初通常都是為了 Data Mart,但是幾年後當時的 Data Mart 主題幾乎都退役光了。這可能是因為資料充滿變異性,Data Mart 可能要隨之修改,更可能因為當時回答的商業問題已經改變。

部門被稱為 ODS

坦白說,如果是我會很不開心…,部門名稱被貶低為一個系統功能。還是說這是指 Organization Data Service? 但是這個部門通常不管理其他關連式資料庫。為何不命名為「資料倉儲科」或是「資料平台科」?

雖然有 EDW 還是以拋檔方式提供資料給業務單位

一開始的時候,我真的很驚訝,為何不放業務單位進來查詢?後來才明白這是最佳解,因為業務單位不見得人人有 SQL 語法或是程式開發能力,拋檔案保留了人工作業的可能性。而且拋檔可以留一個明確的交接點,在此處完成驗貨作業。如果以資料庫連線方式取資料,後續驗證可能會演變成協同程式除錯。若是這個資料庫連線方式取資料的程式是委外廠商開發,而跟這個廠商已經無合約關係存續,將求助無門。

有 EDW 沒有資料目錄

如字面意義。組織內有哪些資料靠口耳相傳。

資料倉儲領域必知的詞彙

EDW, Enterprise Data Warehouse:與單純接來源資料的 usual data warehouse 相對,EDW 應該有統一的使用者入口與操作方式,面向企業不同單位。我們可以說,EDW 是最應該優先實踐企業資料治理政策管理好資料,如果連 EDW 都不能把資料管理做好,難以擴散到整個企業。

DWH, Data Warehouse:或簡稱 DW。有人認為包含 Data Mart, 有人認為不包含 Data Mart。資料結構上從 1 層到 3 層,都有人主張。

ODS, Operational Data Store:有人認為 DWH 應該包含 ODS, 有人不認同。但是,大家基本都認同 ODS 是比較靠近資料來源系統的一層資料結構,Data Mart 是比較靠近資料使用者的一層資料結構。

Data Mart:有人說 Data Mart 是主題式的,但是也有人主張 ODS 也應該是主題式的。共通處是大家都認同 Data Mart 是以各部門或業務主題做區分。
Staging Area:也稱 Staging Layer。

暫存區不提供使用者查詢服務,它是一個工作平台、一個臨時資料庫或區域用來從資料源提取資料暫時存儲,以用於清理、轉換、修改、集成、組合、標準化和重新格式化資料,準備輸出載入到 ODS、DW 和 DM。
袁君雄(2016),淺談資料倉儲 (Data Warehouse),2015年10月8日,取自:https://pk-group.weebly.com/uploads/6/1/2/6/61266765/2015-10-08_data_warehouse.pdf

OLAP Server:3 層式設計 DWH 會多出這一層,以增加供應端的資料維度(豐富程度)。
https://ithelp.ithome.com.tw/upload/images/20230908/20161790FzPw01l28a.png

圖片來源:https://www.slideteam.net/data-warehouse-it-three-tier-data-warehouse-architecture-ppt-styles-example-file.html

EDW 是一面鏡子

其實 OLTP 的系統最終都越長越像,但是 OLAP 系統永遠都有各自的模樣。

即使是在完全相同市場中拼搏的競爭企業之間,會發現他們 EDW 很不一樣,甚至越是競爭,就長得越來越不一樣。資料是企業營運活動的軌跡,資料是企業的記憶。

我的業界觀察是:以 EDW 為核心,可以觀察出一個企業的 DNA。


上一篇
Metadata 詮釋資料 (分離資料儲存與資料取用)
下一篇
SQL 結構化查詢語言(& NoSQL 雜談)
系列文
吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言